M I S E A U POINT 


Oue signified petit «p» et intervalle 

de confiance? 

La valeur du petit p (ou degre de signification) est le premier 
element que recherche spontanement le lecteur d’une etude 
originale. Mais la comprehension de cette valeur ne peut se faire 
si Vintervalle de confiance n ’est pas mentionne. Explications. 
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A border de fagon critique les don- 
nees statistiques des publications 
medicates devient de plus en plus 
important pour les professionnels de 
sante. En effet, il est devenu difficile 
de lire un article medical sans se 
confront er aux methodes epidemio- 
logiques et statistiques, aux notions de 
facteurs de risque, $ odds ratio , de 
risques relatifs, de petits « p » et d’in- 
tervalles de confiance. . . elements qui 
permettent de resumer des observa- 
tions de fagon synoptique, pour iden- 
tifier des lois generates independam- 
ment des impressions laissees par des 
observations particulieres. Pour mieux 
convaincre, le petit p - litteralement, 


le « degre de signification statis- 
tique » - est bien souvent mis en exer- 
gue dans les articles, mais l’interet du 
lecteur est d’etre tout particulierement 
attentif aux intervalle s de confiance 
qui precisent l’ampleur des faits ob- 
serves, avant de considerer les resul- 
tats d’un article comme fondateurs de 
F evidence -based medicine ou medecine 
factuelle . 1 " 9 

PETIT P OU LE DEGRE 
DE SIGNIFICATION STATISTIQUE 

L’une des premieres valeurs que le 
lecteur recherche spontanement dans 
un article est la « valeur de p » (pe- 
tit p chez les Frangais, grand P ou P- 
value chez les Anglo-Saxons). Quel- 
les sont les hypotheses qui prevalent 
dans la determination d’un petit p? 
A-t-il ete calcule et interpret^ conve- 
nablement? Ces questions donnent 
l’occasion de revoir des concepts fon- 


damentaux en recherche clinique: 
echantillons et populations, hypothese 
nulle et test statistique. 

Des echantillons de population 

La realisation d’une etude sur un 
echantillon de personnes apporte de 
nombreux avantages : faisabilite, du- 
ree d’autant plus courte et cout d’au- 
tant plus faible que l’echantillon est 
restreint. Alors que le systeme d’enre- 
gistrement des causes de la mortalite 
en France (evenement pourtant relati- 
vement simple a apprehender) mon- 
tre deja des limites et des imperfections, 
vouloir mener des etudes sur la popu- 
lation generate ou sur des populations 
exhaustives de malades peut relever de 
l’utopie. Ainsi, il n’est pas realiste d’en- 
registrer en permanence des donnees 
pour repondre a toutes les questions 
posees en epidemiologie, a fortiori 
lorsqu’on souhaite mettre en evidence 
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Que faut-il trouver dans les « Methodes »? (ada pt s d'aptes la re f n° 8) 


I es methodes, veritables mots cles pour 
la validite des resultats, sont presen- 
tees en 3 paragraphes: methodes de 
selection, methodes d'intervention et me- 
thodes devaluation. Ces 3 parties s'ap- 
pliquent, que le champ de la recherche soit 
medical, chirurgical, biologique, epide- 
miologique ou meme s'il s'agit d'une re- 
vue des donnees de la litterature. 

LES METHODES DE SELECTION 
DE LA POPULATION 

La selection decrit les criteres d'inclu- 
sion et doit permettre de repondre a ces 
questions: 

1. I'etude definit-elle clairement la po- 
pulation avec des criteres d'inclusion et 
de non-inclusion clairement exposes? 

2. les patients ont-ils ete recrutes au 
meme stade de leur maladie? 

3. les patients selectionnes sont-ils 
representatifs de la population a laquelle 
les resultats doivent etre appliques? 
Les criteres d'inclusion s'appliquent meme 
s'il ne s'agit pas de malades, mais de pre- 
ferments biologiques, de kits diagnos- 
tiques, de populations, ou meme d'articles 
scientifiques pour une revue de la litte- 
rature. II est indispensable de preciser si 


la selection etait retrospective ou pro- 
spective, si la serie etait consecutive ou 
non, randomisee ou non, comment a ete 
calculee la taille de I'echantillon et quelle 
est I'exhaustivite du recrutement des cas 
eligibles ; les motifs qui ont amene certains 
cas a ne pas etre inclus doivent etre pre- 
cises. Ces elements methodologiques sont 
essentiels pour rendre credible toute 
generalisation des resultats. 

LES METHODES D'INTERVENTION 

Les exemples d'intervention sont nom- 
breux: administration d'un medicament, 
intervention chirurgicale, incubation d'un 
materiel biologique, enquete par ques- 
tionnaire en epidemiologie, ou meme lors 
d'une revue de la litterature. La methode 
d'intervention est decrite dans le temps 
(le suivi doit etre suffisamment long pour 
permettre d'observer I'effet clinique de I'in- 
tervention), en termes de lieux, de doses, 
d'unites de mesure... pour exposer le 
protocole d'etude en detail. II taut refe- 
rencer les methodes deja publiees, en les 
decrivant en quelques mots. Pendant et 
apres I'intervention, la mesure des effets 
doit avoir ete independante (en insu du 
groupe de traitement pour un essai 


therapeutique) pour preparer revaluation. 
La methode de randomisation doit aussi 
etre decrite. 

LES METHODES DEVALUATION 

Le critere de jugement principal est de- 
crit avec precision. Le resultat de ('inter- 
vention a ete evalue en observant un ou 
plusieurs parametres. Les valeurs nor- 
mals de ces parametres, avec les limi- 
tes considerees comme anormales, sont 
exposees. Ces parametres peuvent etre 
qualitatifs ou quantitatifs. Apres avoir 
decrit les criteres de jugement, les 
methodes d'analyse sont exposees. Le plan 
d'analyse est decrit en precisant s'il avait 
bien ete prepare avant de commencer le 
travail. Si de nouvelles methodes d'ana- 
lyse ont ete appliquees apres I'obtention 
des resultats, cela doit etre clairement 
expose. Les methodes statistiques sont 
egalement decrites sans referencer obli- 
gatoirement les tests les plus souvent uti- 
lises. Toute methode statistique sophisti- 
quee doit etre decrite brievement et 
referencee. La puissance des tests sta- 
tistiques est precisee. Les methodes sta- 
tistiques utilisees pour estimer la taille 
de I'echantillon a inclure sont precisees. 


de nouveaux facteurs explicates de la 
survenue d’une maladie, ou les facteurs 
pronostiques de maladies emergentes, 
ou ceux de maladies connues mais 
qui voient leur evolution transformee 
par les traitements les plus recents. Re- 
noncer au reve d’un enregistrement 
epidemiologique universel et perma- 
nent n’interdit cependant pas de me- 
ner des recherches dont les conclu- 
sions seront universelles. Sous reserve 
de respecter les standards methodo- 
logiques (v. encadre), les recherches 
qui explorent un echantillon repre- 


sentatif et de taille suffisante permet- 
tent de generaliser les resultats a la po- 
pulation generate: c’est ce que l’on 
appelle « l’inference statistique ». Plus 
l’effectif de I’echantillon est important 
(la taille de lechantillon se rapprochant 
de la taille de la population), plus 
l’estimation est precise ; mais, a partir 
d’un certain effectif, le gain de preci- 
sion obtenu devient tout a fait minime. 
Dans cette optique, la statistique per- 
met de determiner la taille optimale de 
I’echantillon pour chaque objectif de 
recherche. 


L'hypothese nulle 

Dans les sciences de la vie, la de- 
marche hypothetico-deductive utilise 
des hypotheses baties sur des faits deja 
observes. Prealable a la realisation d’un 
test statistique, l’hypothese doit etre 
formulee puis testee et, a partir du re- 
sultat de ce test, elle sera acceptee ou 
rejetee et de nouvelles hypotheses 
pouiront alors etre formulees. Un test 
statistique n’a de sens que s’il peraiet 
de confirmer ou d’infirmer une hypo- 
these formulee a priori a partir 
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d’observations ou d’experimentations 
afm de repondre a une question scien- 
tifique. 

Pour toute comparaison effectuee 
entre series de donnees (par exem- 
ple, le poids des enfants nes un jour 
donne a la maternite de Cagnes-sur- 
Mer et celui des enfants nes dans le 
service de pathologie de la grossesse 
du CHU de Lyon), on observe tou- 
jours une difference, plus ou moins 
grande entre les parametres mesures 
(poids moyen, pourcentage de nou- 
veau-nes hypotrophes, distributions en 
classes de poids). Le but d’un test est 
alors de determiner si la difference 
observee est simplement due au ha- 
sard, c’est-a-dire aux fluctuations d’e- 
chantillonnage (hypothese nulle: le 
poids des enfants n’est pas different), 
ou si au contraire, la difference est bien 
reelle (hypothese alternative : le poids 
des enfants nes dans ces 2 materni- 
tes est different). L’interet des tests sta- 
tistiques est alors de realiser une eco- 
nomic de moyens en permettant de 
mettre en evidence des differences sur 
un nombre reduit d’observations. En 
contrepartie, il faut admettre un cer- 
tain risque d’eireur. En effet, l’echan- 
tillon etudie n’est qu’un echantillon 
parmi tous ceux que l’on pouirait ex- 
traire de la population. Les conclusions 
sur l’ensemble de la population, ti- 
rees a partir de ce seul echantillon, 
comportent 2 risques d’eireur : 1. con- 
clure qu’il y a une difference alors 
qu’elle n’existe pas ; 2. conclure qu’il 
n’y a pas de difference alors qu’elle 
existe reellement. Ces risques sont ap- 
peles respectivement risque de l re es- 
pece (ou risque a, fixe a 5 °/o) et risque 
de 2 e espece (ou risque p, fixe a 5, 10 
ou 20 % selon l’utilite potentielle et 
la securite de l’intervention testee). Les 
risques a et |3 sont des probabilities 
dont on a fixe les valeurs a priori, c’est- 
a-dire au moment de la conception 
de l’etude. Ces risques a et |3 consti- 
tuent des valeurs cles de l’equation qui 


sert au calcul de la taille de l’echan- 
tillon. Comme les risques a et |3 sont 
souvent fixes a la valeur 5 °/o, ce qui 
coincide avec celle du seuil de signi- 
fication statistique, il convient de dis- 
tinguer les risques d’erreur que l’on 
accepte de prendre avant la realisation 
de la recherche du seuil de significa- 
tion (0,05) qui peraiet d’interpreter les 
resultats a l’analyse des donnees obs- 
ervees (v. infra, les tests statistiques). 

Les tests statistiques 

Selon la nature des donnees et le 
type d’etude, le petit p est calcule par 
un test statistique, le plus souvent a 
partir d’un progiciel de statistiques.* 
Mais que veut dire ce petit p et com- 
ment doit-il etre interpret^? 

Le petit p est une probability qui 
peut varier de 0 a 1 et qui permet de 
juger de ce qu’il est convenu d’appe- 
ler la « signification statistique ». En 
comparant le poids des nouveau-nes, 
si le petit p est inferieur au seuil de 
0,05 (seuil fixe a priori comme le 
risque maximal que les auteurs sont 
prets a prendre pour conclure), la dif- 
ference de poids entre les 2 matemi- 
tes est consideree comme statistique- 
ment significative (condition de rejet 
de l’hypothese nulle). Inversement, si 
le petit p est superieur a 0,05, la dif- 
ference n’est alors plus consideree 
comme statistiquement significative, 
ce qui indique soit qu’il n’y a aucune 
difference entre les groupes compares 
(similitude des groupes de nouveau- 
nes), soit qu’il y a trop peu de sujets 
pour montrer une difference qui existe 
reellement (manque de puissance de 
l’etude). Ce dernier point est justement 
l’une des limites du petit p qui justi- 
fie le calcul systematique d’un inter- 
vals de confiance ( v . exemple des 
risques relatifs dans l’encadre). 

Il est interessant de noter qu’un test 
statistique permet uniquement de de- 
montrer, par des observations, qu’une 
hypothese est fausse ; il ne permet 


pas de demontrer que l’hypothese est 
vraie. Reprenons l’exemple des ma- 
ternites : si le test statistique est si- 
gnificatif (p ^ 0,05), l’observation de- 
montre que les nouveau-nes avaient 
un poids different selon la maternite 
et fait rechercher une cause pouvant 
expliquer cette difference : modalites 
de pesee, bassins de population dif- 
ferents, prise en charge eventuelle des 
pathologies de la grossesse, etc. Or, 
si p est superieur a 0,05), situation in- 
verse de la precedente, cela ne de- 
montre pas que les nouveau-nes 
avaient le meme poids ; tout au plus, 
peut-on dire que l’hypothese d’ega- 
lite des poids de naissance n’etait pas 
contredite par la serie d’observations ! 

L'arbitraire du pari a 20 contre 1 

Rien qu’en considerant le seuil de 
signification de 0,05, une fois sur 20, 
on risque de conclure a tort (la diffe- 
rence n’existe pas dans la realite) ; cette 
situation correspond a un resultat sur 
20 et concerne done un article pour 
chaque numero d’une grande revue. 
Meme s’il s’agit d’un standard inter- 
national, ce seuil de signification de 
0,05, qui equivaut a un pari de 20 
contre 1 ou a un rapport de chance 
de 1 sur 20 et qui permet de definir 
« un resultat statistiquement signifi- 
catif », revet un caractere arbitraire qui 
doit rester a l’esprit. 

L'INTERVALLE DE CONFIANCE 

La notion d’intervalle de confiance 
(IC) repose sur l’idee suivante : si la 
meme etude etait realisee sur un 
echantillon different, les resultats ne 
seraient pas strictement identiques. 
L’lC estime cette « variation due a 
l’echantillonnage ». L’approche des IC 


* Le lecteur peut trouver une description tres 
accessible de ces tests ainsi que leurs conditions 
d’utilisation dans les ouvrages Statistique, 
epidemiologie d’Ancelle et Biostatistiques au 
quotidien dHuguier et Flahault, referencesn°2 
et 7 
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lln rapport fictif que vous auriez (presque) pu lire 
dans le New England Journal of Medicine 


Resultats du suivi de la cohorte cc A » 


SURVENUE D'UNE RECIDIVE D'ABCES 
PULMONAIRE PENDANT LA PERIODE 
DE SUIVI (10 ANS) 


Trisomie 



Oui(M) 

Non (M) 

Total 

Oui(E) 

9 

7 

16 

Non (E) 

5 

15 

20 


14 

22 

N = 36 


Tableau 1 


M:a eu la maladie; M : n'a pas eu la maladie; E: expose au risque; 

E : non expose au risque 

Des resultats statistiquement ou cliniquement significatifs ? 



ECHANTILLON 

CRITERE 

IC95 

PETIT P 

SIGNIFICATION 
STATISTIQUE CLINIQUE 

Cohorte « A » 

n = 36 

RR = 2,3 

[0,9; 5,4] 

0,06 

non 

peut-etre 

Cohorte « B » 

n = 360 

RR = 2,3 

[17:3,0] 

<10' 6 

oui 

oui 

Cohorte « C » 

n = 36 

RR = 1,1 

[0,6; 2,1] 

0,74 

non 

non 

Cohorte « D » 

n = 36000 

RR = 1,1 

[1,09;1,13] 

<10' 6 

oui 

non 


Tableau 2 


RR: risque relatif; 1C: intervalle de confiance. 


U ne serie de cas observes au cours du 
premier trimestre 1988 (11 recidives 
d'abces pulmonaires; 60 % de reci- 
dives chez les trisomiques et 20 % chez 
les non-trisomiques) avait laisse penser que 
la recidive des abces pulmonaires etait plus 
frequente chez les enfants trisomiques. La 
communaute pediatrique a decide de ve- 
rifier ce resultat par une etude de cohorte 
prospective pour verifier si la trisomie 21 
representait un facteur de risque de reci- 
dive d'abces pulmonaire. Pour tester I'hy- 
pothese nulle (risque de recidive identique 
chez les trisomiques et les non-trisomiques) 
avec un risque a de 5 % et un risque p de 
20 %, il fallait inclure un minimum de 
27 enfants dans chaque qroupe, soit 54 au 
total (module Statcalc du loqiciel Epi Info 
v6.04fr); compte tenu du recrutement du 
service, il a ete decide d'inclure tous les en- 
fants de 0 a 17 ans pris en charqe en 1999 
pour un abces pulmonaire et de les sui- 
vre pendant 10 ans, pour determiner le 
risque de recidives dans chaque qroupe. 

Contrairement aux previsions, le recru- 
tement sur I'annee n'a permis I'inclusion 
que de 36 enfants du fait d'une moindre in- 
cidence des premiers abces pulmonaires. 
Les effectifs en fin de periode d'inclusion 
et en fin de periode de suivi sont repre- 
sents dans la fiqure. Les effectifs obser- 
ves dans I'etude de cohorte « A » sont pre- 
sents dans le tableau de continqence 
(tableau 1). 

Les formules statistiques, notamment 
celles du % 2 , des risques et des interval- 
les de confiance, ont ete extraites des ou- 
vrages fondamentaux references dans cet 
article; les calculs ont ete verifies a I'aide 
du logiciel Epi Info v6.04fr, logiciel produit 
par le Centers for Disease Control and Pre- 
vention (CDC, Atlanta) et I'Organisation 


mondiale de la sante (OMS, Geneve). Les 
programmes ainsi que le manuel sont dans 
le domaine public et peuvent etre libre- 
ment copies et distribues sans aucune res- 
triction. Epi Info est telechargeable gra- 
tuitement sur le site de I'Ecole nationale 
de la sante publique (http://www.ensp.fr/). 
L'application des formules a donne les re- 
sultats suivants: 



repris dans le tableau 2 qui correspond a 
une forme plus habituelle de presentation 
des resultats d'article. Le risque relatif (RR) 
de 2,3 indique que, dans I'echantillon 
observe, les enfants trisomiques ont pre- 


sente 2,3 fois plus de recidives d'abces 
pulmonaire que les enfants non triso- 
miques. Le « p » superieur a 0,05 indique 
que I'effet observe n'est pas statistique- 
ment significatif : I'lC 95 qui entoure la 
valeur 1 nous donne la meme indication. 
Cependant, la borne superieure de I'lC 95 
est a 5,4, ce qui represente une valeur com- 
patible avec un reel effet. Dans cette si- 
tuation, la realite de I'effet (augmenta- 
tion du risque) est plausible, mais I'effectif 
etant trop petit, il est impossible de 
conclure formellement du fait du manque 
de puissance. 

Si I'enquete avait ete menee dans 
10 services au lieu de 1 et que tous les effec- 
tifs aient ete 10 fois plus importants, les 
resultats auraient ete ceux de la cohorte 
« B » du tableau 2. Dans cette cohorte 
de plus grande taille, on peut constater 
que le risque relatif est inchange (tous les 
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est entierement tournee vers l’estima- 
tion de Tampleur de l’effet observe, 
contrairement au petit p qui se limite 
a revaluation de la probability de la 
veracite de cet effet. 

Donner l’intervalle de confiance 
d’un estimateur (difference, rapport 
de cotes alias odds ratio . >, ou risque re- 
latif) permet de determiner la preci- 
sion de Testimation ponctuelle de ce 
parametre a partir du jeu de donnees 
issues d’un echantillon particulier en 
lui donnant des limites de confiance. 
L’utilisation d’un IC a 95 % est une 
convention, tout comme celle qui 
consiste a considerer qu’un resultat est 
significatif pour une valeur de p infe- 
rieure a 0,05. Dire « a 95 % » signifie 
que 95 % des valeurs possibles du seul 
fait de la fluctuation aleatoire d’e- 
chantillonnage sont comprises dans 
la fourchette des valeurs de l’IC. Au- 
trement dit, on peut etre sur, a 95 °/o, 
d’y trouver la valeur reelle. II est pos- 


sible d’etablir des IC pour la plupart 
des parametres courants, qu’il s’agisse 
de moyennes, de proportions, de 
risques relatifs, de rapports de cotes 
ou encore, pour les essais randomi- 
ses controles, du nombre de sujets ne- 
cessaire a traiter. 

Depuis que certains grandes revues 
comme le British Medical Journal exi- 
gent la mention des intervalles de 
confiance, leur adoption s’est pro- 
gressivement generalisee dans la pre- 
sentation quantifiee des resultats de 
recherche clinique. 

PETIT P: CLINIQUEMENT INSUFFISANT 
SANS (NTERVALLE DE CONFIANCE 

Alors que le test statistique donne 
le petit p qui est l’outil de la compa- 
raison de series de donnees, l’inter- 
valle de confiance est l’outil statistique 
qui donne des indications sur l’am- 
pleur et la variabilite de l’effet observe. 
La valeur de p estime la probability 


de se tromper sur l’hypothese nulle, 
c’est- a-dire sur « l’absence d’effet ». 
En elle-meme, la valeur de p ne four- 
nit aucune information sur l’impor- 
tance d’une difference, ni meme sur 
son sens. De ce fait, les valeurs de p 
que Ton trouve dans les articles ou les 
abstracts ne sont pas informative s a 
elles seules; elles doivent etre inter- 
pretees en fonction de la mesure de 
l’ampleur de l’effet, decrite par l’in- 
dicateur associe a son intervalle de 
confiance. 

CONCLUSION 

Le clinicien doit pouvoir decoder 
les elements statistiques d’un article 
pour se faire une idee de la realite 
des effets d’une intervention, du poids 
d’un facteur epidemiologique sur la 
survenue d’une maladie ou de la qua- 
lite d’un test diagnostique. La lecture 
critique exige plus de raisonnement 
que d’apprentissage cognitif pur. 


effectifs restent proportionnels) mais que 
I'effectif plus important aboutit a des 
resultats statistiquement tres siqnifica- 
tifs lies au resserrement de I'intervalle de 
confiance qui n'entoure plus la valeur 1 ; 
cela illustre le qain de puissance de I'e- 
tude au prorata du nombre de sujets. 

Les auteurs ont confronts ces resul- 
tats a ceux de la cohorte « C » qui etu- 
diait le lien entre une microdeletion du 
chromosome 14 dans une etude pilote 
ainsi que la cohorte « D » pour le lien 
entre la deletion du chromosome 18 et 
la survenue des recidives d'abces pul- 
monaire sur une tres qrande serie d'en- 
fants recrutes par les pediatres de la 
Societe americaine de pediatrie. Les 
resultats sont presentes dans le tableau 2 
qui permet de recenser les differentes 
situations de siqnification statistique et 
clinique que nous venons de decrire. 


t 1 t t 1 t 

^ f f ^ 

♦ t l ♦ 1 l 

f f ^ t 

t 1 t t ♦ t 

f f ^ f 

t t ♦ t t ♦ 


t t ♦ t f t 

t t ♦ t 

t t ♦ ♦ t f 

♦ t t t t 


1990 


2000 


Temps 


„ f 


t 


Cohorte A. 11 : enfant trisomique; : enfant non trisomique. 

ou : enfant ayant eu un abces pulmonaire. 
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L'essentiel 

• L'estimation du resultat principal est 
la premiere etape de toute analyse sta- 
tistique qui permet de repondre a I'ob- 
jectif de I'etude. Ce resultat principal 
est appele « critere de juqement de la 
siqnification clinique » qui peut etre : une 
difference de moyennes dans un essai 
randomise, un risque relatif dans une 
etude de cohorte et un odds ratio dans 
une etude cas-temoins. 

• Le resultat du test statistique est ex- 
prime par une probability notee « p » qui 
peut varier de 0 a 1 et permet de juqer 
de ce qu'il est convenu d'appeler la « si- 
qnification statistique ». Si le petit p est 
inferieur au seuil de 0,05, le resultat est 
dit statistiquement siqnificatif et inver- 
sement. Ce seuil est fixe a priori comme 
le risque maximal que les auteurs sont 
prets a prendre pour conclure. 

• L'intervalle de confiance fournit au 
lecteur un intervalle ayant une proba- 
bility predetermine de contenir la va- 
leur du parametre dans la population 
plutot que son estimation ponctuelle 
dans I'echantillon et la valeurtheorique 
dans la population. Cet intervalle de 
confiance complete le petit p en don- 
nant une idee des valeurs compatibles 
avec ('observation. Quand le test sta- 
tistique n'est pas siqnificatif, l'intervalle 
de confiance nous indique si le risque de 
conclure a tort qu'il n'y a pas de diffe- 


(adapte d'apres la ref 1 9) 

rence est qrand (intervalle larqe) ou 
petit (intervalle etroit). 

• Le risque d'erreurs depend de la va- 
riability des phenomenes observes, 
du caractere unilateral ou bilateral du 
test statistique et du nombre de sujets 
observes. 

• L'adequation des methodes statis- 
tiques depend du type d'etude et de la 
nature des donnees (qualitatives ou 
quantitatives). Le recours aux tests para- 
metriques implique que des hypotheses, 
quant a la distribution des variables, aient 
ete verifies (par exemple, la comparai- 
son de 2 moyennes par un test « t » im- 
pose de verifier prealablement que la dis- 
tribution de la variable est normale, 
c'est-a-dire conforme a la distribution de 
Gauss). L'utilisation de tests non para- 
metriques, aussi appeles tests de rang, 
n'impose pas de telles contraintes, mais 
ils sont souvent moins puissants. 

• Attention a ne pas confondre « dif- 
ference statistiquement significative » 
et « difference importante sur le plan cli- 
nique », c'est-a-dire une difference qui 
doit etre prise en compte dans la pra- 
tique. La valeur du « p » depend non seu- 
lement de I'ecart observe mais aussi de 
la taille de I'echantillon. On doit parler de 
la « difference statistiquement signifi- 
cative » et de la « difference clinique- 
ment significative »! 


considerer les resultats de I’etude 
comme generalisable (au moins a la 
pratique du lecteur), ce dont on s’est 
prealablement assure en verifiant 
l’adequation des methodes de selec- 
tion et l’exhaustivite des inclusions.* 
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Le questionnement mis en oeuvre 
lors de la lecture critique d’un article 
original, et tout particulierement sa 
section « Methodes » doit reprendre 
de fagon stereotypee une liste d’items 
qui permettent d’evaluer la rigueur 
de l’analyse statistique (v. encadre). 
Dans cette optique, le petit p et les 
intervalle s de confiance sont 2 outils 
fondamentaux et complementaires qui 


doivent desormais etre presentes 
conjointement dans les rapports de 
recherche clinique, pour convaincre 
du bien-fonde de la conclusion du test 
d’hypothese et de l’ampleur des faits 
observes. A ce stade, il est legitime de 
s’approprier un resultat et de modi- 
fier sa pratique de soins des lors que 
le resultat d’une etude apparait clini- 
quement pertinent; cela revient a 
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